基本数据创建
result:每家店铺每日交易成功数量
view:每家店铺每日浏览量
参数分解
shop_info
shop_id | city_name | location_id | per_pay | score | comment_cnt | shop_level | cate_name.. |
---|---|---|---|---|---|---|---|
商家id | 城市名 | 所在位置编号 | 人均消费 | 评分 | 评论数 | 商铺等级 | 分类 |
shop_id:主键,索引
city_name:获取气温、消费能力、消费习惯
location_id:聚类算法,估计功效太低没什么意义,pass
per_pay:检测与result负相关,与view负相关。
socre:检测与result正相关,与view正相关。
comment_cnt:检测与result正相关,与view正相关。
shop_level:检测与result正相关,与view正相关。
cate_name:分类太细,考虑只保留使用“超市”和“美食”进行区分。
检测per_pay、score、comment_cnt、shop——level与view、result的关联度。
score有很大的问题:这个值是处于变动的。
user_pay
user_id | shop_id | time_stamp |
---|---|---|
付费用户id | 商家id | 消费时间 |
time_stamp:分解出日期day和时间time列。
user_view
user_id | shop_id | time_stamp |
---|---|---|
浏览用户id | 商家id | 浏览时间 |
time_stamp:分解出日期day和时间time列。
特征工程
1.考虑到口碑是2015年6月23日开始发布,必然遭遇冷启动和虚假数据问题,那么时间序列中,体现趋势的指标应该是7日移动平均线ma,影响最大的特征因子应该是最近一次的ma_7。
2.城市天气逻辑体现非常重要,主要划分了三级(晴,小雨/小雪/,大雨/雪),但划分后的效果并不很好。
3.当日是否为工作日,次日是否为工作日比较重要。
4.16年情人节到过年的那周视为噪音。
5.GDP作为特征果然没效果,删了。
感受
1.以不同可索引对象制造的模型再融合有巨大威力,第一次瞎配的权重都带来了最好的提升。
2.solo的问题不在于想法…判断出哪个想法提升最多是最重要的,当然这需要经验。
3.xgboost因为bug跑不起来,没时间走ARIMA,也没时间再上prophet,凄苦…水平不够时候有队友提升会比较快。
4.合理利用每日评分确定正确方向是非常有必要的,相信前几的差距已经是谁对趋势判断更敏锐了。
5.全身心的投入大约勉强能进前200,看wepon大神的blog,对底层的理解还是很重要,今后要加强学习和训练。